Introduction
의료 분야의 데이터는 같은 환자에 대해 반복 측정하거나, 같은 병원에서 측정하는 자료 등으로 구성되어있는 경우가 많다. 즉, 데이터들 간에 상관관계가 존재하기 때문에 독립성 가정이 깨져, 회귀분석을 사용하지 못한다. 그렇기 때문에 의료 데이터 분석에는 LMM(Linear Mixed model)과 GEE(Generaluzed Estimating Equation)이 자주 사용된다. 이러한 방법들을 사용할 때, 데이터의 형태에 따라 제약조건들이 존재하고, 연구자들에게 혼동을 주기도 한다. 본 Article에서는 LMM의 제약조건으로 인해, GEE의 사용가능여부를 혼동하게 되는 상황에 대해서 알아볼 것이다.
LMM의 기본 구조
LMM은 전체 환자 집단에 공통적으로 적용되는 평균적인 효과
LMM의 기본적인 구조는 다음과 같다.
: 번째 환자의 반응변수 벡터 ( ) : 고정 효과에 대한 설계 행렬 ( ) : 고정 효과 회귀 계수 벡터 ( ) : 랜덤 효과에 대한 설계 행렬 ( ) : 랜덤 효과 벡터 ( ) : 잔차 벡터 ( )
LMM의 핵심은
LMM에서 조건부 분포와 Marginal 분포
조건부 분포는 아래와 같이 얻어진다.
즉 LMM은 평균 구조
LMM의 “정규성 가정”이 혼동을 만드는 지점
LMM의 파라미터 추정은 주변 우도(Marginal Likelihood) 함수를 최대화하는 과정이다.
이며, Log-likelihood는
이 목적 함수는 데이터
그러한 경우에 속하는 대표적인 데이터들은 아래와 같다.
- 비연속적 결과 변수 : 치료 성공 여부(Binary), 발작 횟수(Count), 질병의 단계(Ordinal) 등은 정규분포로 근사하기 어렵다.
- 유계 데이터(Bounded Data): 통증 점수(VAS 0-10), 삶의 질 지수(0-1), 검사 수치(항상 양수) 등은 정의역이 제한되어 있어 정규분포의 무한한 지지 집합(Support) 가정과 충돌한다.
- Skewness & Kurtosis: 의료 비용이나 재원 기간 데이터는 전형적으로 오른쪽으로 긴 꼬리를 가진 분포(Log-normal or Gamma-like)를 보인다.
이러한 비정규 데이터에 LMM을 강제로 적용할 경우 발생할 수 있는 문제는 단순히 모델 적합도가 떨어지는 것에 그치지 않는다. 다음과 같은 심각한 문제상황을 발생 시킬 수 있기 때문이다.
-표준오차의 왜곡: 정규성 가정에 기반한 분산 추정량은 데이터의 이분산성(Heteroscedasticity)이나 비정규성을 반영하지 못해, 표준오차를 부정확하게 계산한다. 이는 신뢰구간의 포함 확률을 떨어뜨리고 p-value의 신뢰성을 훼손한다.
-추정 효율성 저하: MLE는 정규분포 하에서만 효율적이다. 분포가 다를 경우, 더 적절한 분포를 가정한 모델보다 추정량의 분산이 커질 수 있다.
GEE의 기본 구조: 추정방정식 + quasi(평균–분산) + 상관구조
GEE(Generalized Estimating Equations)는 특정 분포의 우도(likelihood)를 세우기보다, 반복측정 자료에서 평균모형을 기반으로
평균모형과 추정방정식
평균모형은 다음과 같이 둔다.
환자
를 정의하면, GEE는 다음 방정식을 만족하는
여기서
Quasi(평균–분산 관계): 를 만들기 위한 2차 구조
GEE가 “분포를 가정하지 않는다”고 할 때, 이는 확률 밀도 함수 전체를 특정하지 않는다는 의미이다. 대신 GEE는 첫 번째 모멘트(평균)와 두 번째 모멘트(분산)의 관계만을 정의하는 준우도(Quasi-Likelihood) 접근을 취한다.
여기서
- Gaussian-like:
(분산이 일정함) - Bernoulli-like:
(평균이 0.5일 때 분산 최대) - Poisson-like:
(평균과 분산이 같음) - Negative Binomial-like:
이러한 설정은 데이터 생성 분포를 완벽하게 묘사하려는 것이 아니라, 회귀 계수 추정에 필요한 최소한의 정보(평균-분산 관계)만을 모델링하는 것이다. 따라서 실제 데이터가 해당 분포를 정확히 따르지 않더라도, 평균 모델이 올바르다면
GEE의 핵심: 작업 공분산 행렬과 샌드위치 추정량
GEE의 가장 독창적인 부분은 반복측정 자료에서 한 개인(클러스터) 내부의 상관을 “완벽히 맞추려고” 하기보다,
따라서 위 분해는
비정규 outcome에서도 GEE를 배제할 근거는 없다
LMM은 정규-우도 기반 추론이 기본이기 때문에, outcome이 정규에서 크게 벗어날 때 p-value/CI 해석이 민감해질 수 있다. 반면 GEE는 분포를 특정하지 않고(quasi로 평균–분산만 둠), 환자 내 상관을 working 상관구조로 반영한 뒤, 표준오차는 robust(sandwich)로 정리한다. 따라서 outcome이 정규분포를 따르지 않는다는 이유만으로 GEE를 배제할 근거는 없다.
다만 GEE가 무가정이라는 뜻은 아니다. 클러스터 간 독립(대개 환자 간 독립), 평균모형의 적절성, 그리고 클러스터 수
상관구조 : independence vs exchangeable를 어떻게 이해하고 선택할까
GEE에서 작업 상관행렬
Independence
independence는 환자 내 상관을 0으로 두는 가정이다. 반복측정 자료에서 상관이 실제로 0인 경우는 흔하지 않지만, 이 선택은 종종 “상관을 무시한다”기보다 상관에 대한 가정을 최소화한다는 의미로 사용된다. 특히 GEE에서는 작업 상관구조가 틀려도 robust(Sandwich) 표준오차를 사용하면 추론이 가능하므로, independence는 충분히 정당한 기본 설정이 될 수 있다.
- 장점: 구조가 단순하여 적합이 안정적이고, 관측 시점이 불규칙하거나 측정 횟수가 제각각인 불균형자료에서도 부담이 적다.
- 단점: 실제 양의 상관이 존재할 때는 추정 효율이 떨어질 수 있어(표준오차가 커져) 검정력이 낮아지는 방향으로 작용할 수 있다.
즉 independence는 기준점으로 두고, 다른 상관구조와 비교했을 때 결론이 크게 달라지는지 확인하는 용도로도 자주 쓰인다.
Exchangeable (compound symmetry)
exchangeable은 같은 환자 내 임의의 두 시점 관측치가 동일한 상관
- 장점: 환자 내 상관을 반영하면서도 모수(상관모수)가
하나라 단순하고, 보고/해석이 깔끔하며 효율이 좋아질 수 있다. - 단점: 시간 간격에 따라 상관이 달라지는 패턴(예: 가까운 시점끼리 더 강한 상관)을 표현하지 못한다.
상관구조의 선택
작업 상관구조를 하나로 단정하기 어렵다면, 가장 자연스러운 제시는 (1) 주 분석의 기본 구조를 정하고, (2) 다른 구조로 민감도 분석을 수행해 결론의 견고함을 확인하는 방식이다. 여기서 중요한 것은 “exchangeable이 이론적으로 더 좋아 보인다”가 아니라
데이터가 exchangeable을 추정할 만큼의 정보가 있고 적합이 안정적인지다. 다음과 같은 상황에서는 exchangeable을 쓰는 것이 현실적으로 어렵거나(수렴/추정 불안정),
- 한 환자당 반복측정 횟수가 매우 적어(
가 작음) 환자 내 상관을 추정할 정보가 거의 없는 경우 - 클러스터 수(환자 수)가 작거나, 불균형/결측이 심해
추정이 불안정해지는 경우 - 적합 과정에서 경고/수렴 문제가 반복되거나, 추정된
가 극단값(예: 에 근접)으로 튀는 경우 - robust SE 대비 model-based SE가 비정상적으로 괴리되는 등, 상관모수 추정이 불안정하다고 판단되는 경우
이런 경우에는 independence를 “대안”이 아니라 기본 상관구조로 두는 것이 더 타당하다. GEE의 목적이 평균효과
- exchangeable이 안정적으로 적합되고
- exchangeable이 불안정하거나(수렴/경고/극단적
결론적으로, Outcome의 비정규성이 우려되는 상황이라면 정규 우도(Likelihood)에 기반한 LMM의 제약에서 벗어나, Quasi-likelihood와 Robust 표준오차를 제공하는 GEE를 적극적으로 고려한다. 이때 상관구조의 선택은 단순히 ’구조의 정답’을 찾는 과정이라기보다, 데이터의 복잡도와 수렴 안정성을 고려하는 판단의 과정이다. 모델이 안정적이라면 Exchangeable을, 추정 정보가 부족하거나 수렴이 불안정하다면 Independence를 기본으로 두되, 상관구조 변경에도 결론이 일관되게 유지되는지 확인하는 과정을 거친다면 더 신뢰도 높은 결과를 도출할 수 있을 것이다.
Reuse
Citation
@online{oh2026,
author = {Oh, Sangho},
title = {비정규 {분포의} {데이터에} {GEE를} {사용할} {수} {있을까?}},
date = {2026-01-02},
url = {https://blog.zarathu.com/posts/2026-01-02-LMM, GEE/},
langid = {en}
}